5.13.3 Cox-regresjon

På grunn av egenskapene ved datasett tilrettelagt for overlevelsesanalyser benyttes ikke tradisjonelle regresjonsmetoder, men spesialiserte overlevelsesmodeller der Cox er en av de vanligste.

Kort fortalt brukes overlevelsesmodeller som Cox til å estimere hvilke variabler som påvirker hazardrisikoen mest. Til forskjell fra standard regresjonsanalyse som estimerer effekter av forklaringsvariabler på en responsvariabel der alle variabler måles på gitte tidspunkt, ligger fokuset i Cox-modeller på å estimere effekten av forklaringsvariabler på relativ hazardrisiko knyttet til en spesifikk hendelse (død, sykdom, uførhet, arbeidsledighet etc) som måles over tid. Mer spesifikt estimeres hazardraten gitt ved h(t|x), altså hazardraten som en funksjon av t (tid) og x (sett med forklaringsvariabler).

Cox kan ses på som en mer formalisert metode for å sammenlikne effekter av forklaringsvariabler på overlevelsestid/hazardrisiko sammenliknet med Kaplan-Meier der man genererer overlevelsesratekurver og studerer forskyvninger i disse gjennom oppsplitting etter ulike egenskaper gitt ved kategoriske variabler.

Cox proporsjonale hazard modell er gitt ved følgende formel:

Merk at tidskomponenten kun ligger i første del av uttrykket ovenfor: $b_0(t)$ . Denne kalles «baseline hazard» og er en tidsavhengig basiskomponent som skaleres opp eller ned basert på det andre leddet der forklaringsvariablene inngår.

Etter at datasettet er tilrettelagt for overlevelsesanalyse, jfr. kap. 5.11.1, kan du kjøre en cox-analyse gjennom å bruke kommandoen cox der man først angir variabelen som måler «hendelse» og deretter variabelen som måler «tid» (rekkefølgen er viktig). Merk at datasett som er tilpasset andre overlevelsesanalyser, som Kaplan-Meier, også kan brukes i en Cox-analyse.

Eksempler:

Typisk resultat (standard):

Typisk resultat ved bruk av hazardrate-opsjon:

TOLKNING AV RESULTAT

Øverste eksempel viser standardvisning med koeffisientestimater. Disse skal tolkes på tradisjonell måte. Positive koeffisientverdier betyr positiv sammenheng mellom den aktuelle variabel og hazardrisiko, og implisitt negativ effekt på overlevelsestid. Negative verdier betyr det motsatte. Nullverdi betyr ingen sammenheng.
Nederste eksempel viser estimerte hazardrater i stedet for koeffisienter. Disse viser den ratevise endringen i risiko ved en enhets økning i den aktuelle variabelen, og skal tolkes på en annen måte. Nullpunktet som antyder ingen sammenheng er her verdien 1. Verdier over 1 betyr positiv effekt på risiko (implisitt negativ effekt på overlevelsestid), og vice versa for verdier under 1.
Merk: Positiv effekt på risiko (altså negativ effekt på overlevelsestid) samsvarer med en brattere Kaplan-Meier overlevelsesratekurve (sammenliknet med referansegruppen).
Kommandoen coefplot kan brukes i sammenheng med cox for grafisk visning av estimatene, slik som i eksemplene over.
Tallene inni hovedtabellen skal tolkes på samme måte som for vanlige regresjoner, f.eks. regress.
Modellmålene øverst:
- Antall obs: Antall observasjoner som inngår i analysepopulasjonen (= antall enheter/individer ved vanlige tverrsnittsdatasett).
- Antall hendelser: Antallet hendelser summert over analysepopulasjonen (= summen av dummyvariabelen som måler hendelse, målt over analysepopulasjonen).
- Concordance (C-index): Et alternativ til LR chi2() som mål på forklaringskraft. C-index baserer seg på sammenstillinger av faktiske versus predikerte verdier for alle enheter, og verdien regnes ut fra andelen samsvarende par av verdier dividert på antallet mulige par totalt. 0 er dårlig, 1 er best. Verdier bør være over 0.5.
- Akkumulert overlevelsestid: Summen av variabelen som måler tid målt over alle enheter i populasjonen.
- Log likelihood: Mål på forklaringskraft for modellen. Mulige verdier er fra minus uendelig til uendelig. Jo høyere verdi, jo bedre modell. Men lite intuitivt mål. Benytt heller "LR chi2" / "Prob > chi2" eller C-index for å vurdere om modellen er god.
- LR chi2(): Verdi fra chikvadrat-test.
- "Prob > chi2": P-verdi for chikvadrat-test. Lave verdier er bra. Brukes til å vurdere om modellen er bra eller dårlig. Verdien bør være under 0.2.
Baseline-estimering baserer seg på Breslow-metoden.

$\rhd$ Eksempel: Tilrettelegging av data for overlevelsesanalyser, deriblant Cox-analyser